Enfoque de Optimización de Preferencias Directas Justas $\phi$-DPO para el Aprendizaje Continuo en Modelos Multimodales Grandes
Optimización de Preferencias Directas Justas $\phi$-DPO: una técnica avanzada para mejorar la toma de decisiones de forma equitativa y eficiente.